智能论文笔记

Fractional SDE-Net: Generation of Time Series Data with Long-term Memory

Kohei Hayashi , Kei Nakagawa

分类：机器学习 | (统计)机器学习

2022-01-16

在本文中，我们专注于使用神经网络的时间序列数据的生成。通常情况下，输入时间序列数据仅实现了一个（通常是不规则采样）路径，这使得很难提取时间序列特征，并且其噪声结构比I.I.D更为复杂。类型。时间序列数据，尤其是来自水文，电信，经济学和金融的数据，也表现出长期记忆，也称为长期依赖性（LRD）。本文的主要目的是在神经网络的帮助下人为地生成时间序列，并考虑到路径的LRD。我们提出了FSDE-NET：神经分数随机微分方程网络。它通过使用大于一半的HURST索引的分数Brownian运动来概括神经随机微分方程模型，该方程式大于一半。我们得出FSDE-NET的求解器，并理论上分析了FSDE-NET溶液的存在和唯一性。我们对人工和实时序列数据进行的实验表明，FSDE-NET模型可以很好地复制分布属性。

translated by 谷歌翻译

Improving Nonparametric Classification via Local Radial Regression with an Application to Stock Prediction

Ruixing Cao , Akifumi Okuno , Kei Nakagawa , Hidetoshi Shimodaira

分类： (统计)机器学习 | 人工智能 | 机器学习

2021-12-28

对于监督分类问题，本文考虑通过使用观察到的协变量来估算查询的标签概率。众所周知的非参数内核更顺畅，并在查询周围的球上占据平均值的$ k $-n $-nnn）估算器，但特别是对于球的大半径偏向而渐近偏差。消除这种偏差，本地多项式回归（LPOR）和Multiscale $ K $ -NN（MS-$ K $ -NN）通过围绕查询周围的本地回归来学习偏置术语并将其推断给查询本身。然而，他们的理论最优性已经显示为无限数量的训练样本的限制。为了纠正具有较少观察的渐近偏差，本文提出了一种局部径向回归（LRR）及其逻辑回归变量，称为局部径向逻辑回归（LRLR），通过结合LPOS和MS-$ K $ -NN的优点。这个想法很简单：通过将径向距离作为解释变量将径向距离施加到观察标签的本地回归，然后将估计的标记概率推断为零距离。我们的数值实验包括日常股票指数的现实世界数据集，证明了LRLR胜过LPOR和MS $ K $ -NN。

translated by 谷歌翻译

Multimodal Sequential Generative Models for Semi-Supervised Language Instruction Following

Kei Akuzawa , Yusuke Iwasawa , Yutaka Matsuo

分类：机器学习 | 人工智能 | 自然语言处理

2022-12-29

Agents that can follow language instructions are expected to be useful in a variety of situations such as navigation. However, training neural network-based agents requires numerous paired trajectories and languages. This paper proposes using multimodal generative models for semi-supervised learning in the instruction following tasks. The models learn a shared representation of the paired data, and enable semi-supervised learning by reconstructing unpaired data through the representation. Key challenges in applying the models to sequence-to-sequence tasks including instruction following are learning a shared representation of variable-length mulitimodal data and incorporating attention mechanisms. To address the problems, this paper proposes a novel network architecture to absorb the difference in the sequence lengths of the multimodal data. In addition, to further improve the performance, this paper shows how to incorporate the generative model-based approach with an existing semi-supervised method called a speaker-follower model, and proposes a regularization term that improves inference using unpaired trajectories. Experiments on BabyAI and Room-to-Room (R2R) environments show that the proposed method improves the performance of instruction following by leveraging unpaired data, and improves the performance of the speaker-follower model by 2\% to 4\% in R2R.

translated by 谷歌翻译

Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism

Yukiya Hono , Kei Hashimoto , Yoshihiko Nankaku , Keiichi Tokuda

分类：机器学习

2022-12-28

This paper proposes a novel sequence-to-sequence (seq2seq) model with a musical note position-aware attention mechanism for singing voice synthesis (SVS). A seq2seq modeling approach that can simultaneously perform acoustic and temporal modeling is attractive. However, due to the difficulty of the temporal modeling of singing voices, many recent SVS systems with an encoder-decoder-based model still rely on explicitly on duration information generated by additional modules. Although some studies perform simultaneous modeling using seq2seq models with an attention mechanism, they have insufficient robustness against temporal modeling. The proposed attention mechanism is designed to estimate the attention weights by considering the rhythm given by the musical score. Furthermore, several techniques are also introduced to improve the modeling performance of the singing voice. Experimental results indicated that the proposed model is effective in terms of both naturalness and robustness of timing.

translated by 谷歌翻译

Prior-mean-assisted Bayesian optimization application on FRIB Front-End tunning

Kilean Hwang , Tomofumi Maruta , Alexander Plastun , Kei Fukushima , Tong Zhang , Qiang Zhao , Peter Ostroumov , Yue Hao

分类：机器学习

2022-11-11

Bayesian optimization~(BO) is often used for accelerator tuning due to its high sample efficiency. However, the computational scalability of training over large data-set can be problematic and the adoption of historical data in a computationally efficient way is not trivial. Here, we exploit a neural network model trained over historical data as a prior mean of BO for FRIB Front-End tuning.

translated by 谷歌翻译

Gromov-Wasserstein Autoencoders

Nao Nakagawa , Ren Togo , Takahiro Ogawa , Miki Haseyama

分类：机器学习 | 计算机视觉

2022-09-15

在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型，例如变异自动编码器（VAE），以基于元元素来学习潜在表示，这是对下游任务有益的一般前提（例如，disentanglement）。但是，这种方法通常偏离原始的可能性体系结构，以应用引入的元优势，从而导致他们的培训不良变化。在本文中，我们提出了一种新颖的表示学习方法，Gromov-Wasserstein自动编码器（GWAE），该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标，而是通过最小化Gromov-Wasserstein（GW）度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异，例如具有不同的维度。通过限制可训练的先验的家庭，我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明，GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。

translated by 谷歌翻译

Reinforced Continual Learning for Graphs

Appan Rakaraddi , Siew Kei Lam , Mahardhika Pratama , Marcus De Carvalho

分类：机器学习 | 人工智能

2022-09-04

图神经网络（GNN）已成为与图形和类似拓扑数据结构有关的无数任务的骨干。尽管已经在与节点和图形分类/回归任务有关的域中建立了许多作品，但它们主要处理单个任务。在图形上的持续学习在很大程度上没有探索，现有的图形持续学习方法仅限于任务的学习方案。本文提出了一个持续学习策略，该策略结合了基于架构和基于内存的方法。结构学习策略是由强化学习驱动的，在该学习中，对控制器网络进行了这种方式，以确定观察到新任务时从基本网络中添加/修剪的最佳节点，从而确保足够的网络能力。参数学习策略的基础是黑暗体验重播方法的概念，以应对灾难性的遗忘问题。我们的方法在任务收入学习和课堂学习设置中都通过几个图的连续学习基准问题进行了数值验证。与最近发表的作品相比，我们的方法在这两种设置中都表明了性能的提高。可以在\ url {https://github.com/codexhammer/gcl}上找到实现代码。

translated by 谷歌翻译

Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents

Tsubasa Nakagawa , Shunsuke Kitada , Hitoshi Iyatomi

分类：自然语言处理 | 人工智能 | 机器学习

2022-08-30

通常很难从网上交换的文本中正确推断作家的情绪，而作家和读者之间的认可差异可能会出现问题。在本文中，我们提出了一个新的框架，用于检测句子，以在作者和读者之间在情感识别上产生差异，并检测引起这种差异的表达方式。所提出的框架由基于变压器（BERT）的检测器的双向编码器表示，该表示器检测句子，导致情绪识别差异，并分析获得在此类句子中特征性出现的表达式。该探测器基于由作者和社交网络服务（SNS）文档的三个读者注释的日本SNS文档数据集，并以AUC = 0.772检测到“隐藏的天角句子”；这些句子引起了人们对愤怒的认识的差异。由于SNS文档包含许多句子，这些句子的含义很难通过分析该检测器检测到的句子来解释，因此我们获得了几种表达式，这些表达式在隐藏的角度句子中出现。被发现的句子和表情并不能明确传达愤怒，很难推断作家的愤怒，但是如果指出了隐性的愤怒，就有可能猜测作者为什么生气。在实际使用中，该框架很可能有能力根据误解来缓解问题。

translated by 谷歌翻译

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model

Ho Kei Cheng , Alexander G. Schwing

分类：计算机视觉

2022-07-14

我们提出XMEM，这是一种由Atkinson-Shiffrin Memory模型启发的统一功能存储器存储的长视频的视频对象分割体系结构。视频对象分割的先前工作通常仅使用一种类型的功能内存。对于超过一分钟的视频，单个功能内存模型紧密地链接了内存消耗和准确性。相比之下，遵循Atkinson-Shiffrin模型，我们开发了一种结构，该体系结构结合了多个独立但深厚的特征记忆存储：快速更新的感觉存储器，高分辨率的工作记忆和紧凑的长期记忆。至关重要的是，我们开发了一种记忆增强算法，该算法通常将主动使用的工作记忆元素合并为长期记忆，从而避免记忆爆炸并最大程度地减少长期预测的性能衰减。结合新的记忆阅读机制，XMEM在与最先进的方法（不适用于长视频上使用）相当的长视频时，XMEM大大超过了长效数据集上的最先进性能数据集。代码可从https://hkchengrex.github.io/xmem获得

translated by 谷歌翻译

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue

Kentaro Mitsui , Tianyu Zhao , Kei Sawada , Yukiya Hono , Yoshihiko Nankaku , Keiichi Tokuda

分类：自然语言处理 | 机器学习

2022-06-24

最近的文本到语音（TTS）的质量与人类的质量相当。但是，其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先，我们记录并抄录实际自发对话。然后，提出的对话TTS分为两个阶段：第一阶段，各种自动编码器（VAE） - VITS或高斯混合物变化自动编码器（GMVAE） - 培训了训练，从端到端文本对语音（VIT），最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段，对风格预测指标进行了训练，以预测从对话历史中综合的说话风格。在推断期间，通过将样式预测器预测的语言样式表示为VAE/gmvae-vits，可以以适合对话背景的样式合成语音。主观评估结果表明，所提出的方法在对话级别的自然性方面优于原始VIT。

translated by 谷歌翻译